让 自 适 应 测验 更 知人 善 选 一 一 基于 推荐 系 


统 的 选 题 策略 - 
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摘 要 基于 推荐 系统 中 协同 过 滤 推 荐 的 思想 ， 提 出 两 种 可 以 利用 已 有 答题 者 数据 的 CAT 选 


题 策略 : 直接 基于 答题 者 推荐 (DEBR) 和 间接 基于 答题 者 推荐 (IEBR)。 通 过 两 个 模拟 研 
究 ， 在 不 同 题库 和 不 同 长 度 的 测验 中 ， 比 较 了 两 种 推荐 选 题 策略 与 两 种 传统 选 题 策 略 (FMI 


和 BAS) Zl 


= 


量 精度 和 对 题目 曝光 率 控制 上 的 表现 ， 以 及 影响 推荐 选 题 策略 表现 的 因素 。 结 
REM: 两 种 推荐 选 题 策略 对 题目 上 曝光 率 的 控制 优 于 两 种 传统 选 题 策略 ， 测 量 精 度 不 亚 于 


in| 


BAS 方法 ， 其 中 DEBR 侧重 选 题 精 度 ，IEBR 对 题目 曝光 率 控制 最 好 。 已 有 答题 者 数据 的 特 
点 和 质量 是 影响 推荐 选 题 策略 表现 的 主要 因素 。 
关键 词 选 题 策略 ;， 己 有 答题 者 数据 ， 推 荐 系统 ， 协 同 过 滤 推 荐 ， 模拟 研究 


分 类 号 B841 


1 引言 


计算 机 自 适 应 测验 (Computerized Adaptive Testing, CAT) 基于 一 定 的 选 题 策略 ， 为 不 同 


能 力 的 答题 者 提供 不 同色 


E 度 的 题目 , 用 一 套 “ 量 身 定制 ” 的 测验 更 准确 高 效 地 测量 出 每 名 答题 


者 的 真实 能 力 (Weiss, 1982)。 随 着 智慧 学 习 和 智慧 测验 的 推广 和 流行 ，CAT 的 应 用 范围 愈 
W (Zhang & Chang, 2016)， 随 之 产生 了 大 量 答题 者 完成 测验 后 留 下 的 过 程 性 数据 。 从 
数据 挖掘 的 角度 来 看 ， 这 些 数 据 中 蕴含 了 丰富 的 信息 ,包括 作答 结果 、 过 程 中 能 力 估计 值 和 
下 一 道 题 目 之 间 的 映射 关系 , 通过 合适 的 技术 手段 从 中 可 以 挖掘 出 有 用 的 模式 , 预测 未 知 的 
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结果 (Tan, Steinbach, & Kumar, 2007)， 即 抽象 和 建立 一 套 新 的 选 题 规则 ， 既 可 DAS 


ed 


现 与 产生 
数据 所 用 策略 相近 的 选 题 精度 , 还 可 以 根据 现 有 选 题 数 据 中 暴露 出 的 问题 (如 常见 的 题库 使 
不 均匀 )， 动 态 地 调整 这 套 规 则 ， 弥 补 原 有 策略 的 不 足 。 毛 秀珍 和 辛 涛 (2011) 指出 CAT 
选 题 策略 发 展 至 今 , 一 个 重要 的 改进 方向 是 如 何 充分 利用 答题 者 的 先 验 信息 。 对 于 每 一 个 正 
在 完成 测验 的 答题 者 而 言 , 已 有 答题 者 数据 正 是 一 类 具有 重要 价值 但 被 长 期 被 包 视 的 先 验 信 
息 来 源 。 由 于 CAT 的 提出 和 发 展 主要 基于 项 目 反 应 理论 (Ttem Response Theory, IRT; Chang, 
2015)， 在 现 有 的 IRT 框架 下 提出 的 选 题 策略 大 多 仅 利用 了 当前 答题 者 的 作答 信息 ， 难 以 将 
已 有 答题 者 数据 纳入 CAT 选 题 的 考虑 范围 中 ， 也 就 难以 灵活 和 直接 地 从 他 人 数据 中 学 习 选 
题 经 验 并 改进 选 题 策略 。 

如 何 构建 更 智慧 的 辅助 学 习 和 测验 系统 , 进一步 实现 自 适应 的 目标 , 是 一 个 跨 学 科 的 问 
题 ， 需 要 心理 学 、 教 育 学 、 统 计 学 和 机 器 学 习 等 多 领域 专业 知识 和 技术 手段 的 融合 (Chen, 
Li, Liu, & Ying, 2018; Zhang & Chang, 2016)。 具 体 到 如 何 使 用 已 有 答题 者 数据 改进 CAT. 选 
题 策略 , 鉴于 上 述 传统 选 题 策 略 的 局 限 性 , 同样 可 以 尝试 在 RT 的 理论 基础 之 上 引入 全 新 的 
技术 手段 ， 推 荐 系统 是 一 个 合适 的 选择 。 

推荐 系统 (Recommender Systems) 是 一 系列 利用 已 有 数据 为 用 户 进行 项 目 推荐 的 算法 
和 技术 ， 可 以 根据 用 户 的 需求 给 出 精准 的 匹配 ， 是 数据 挖掘 领域 的 热门 研究 课题 Ricci, 
Rokach, & Shapira, 2015 )， 诸 多 成 熟 的 算法 已 在 商业 、 文 娱 、 社 交 等 应 用 领域 得 了 巨大 的 成 


ud 


g 


I (Covington, Adams, & Sargin, 2016; Quijano-Sánchez, Recio-Garcia, Diaz-Agudo, & Jiménez- 
Diaz, 2011; Smith & Linden, 2017)。 应 用 于 教育 领域 中 ， 推 荐 系统 可 以 利用 大 规模 的 已 有 学 


习 数 据 , 预测 学 生 在 新 题目 上 的 作答 表现 , 准确 率 优 于 传统 方法 (Thai-Nghe, Drumond, Krohn- 


Grimberghe, & Schmidt-Thieme, 2010)。 近 年 来 快速 发 展 的 在 线 学 习 (e-Learning) 正 是 借助 
推荐 系统 为 数 以 万 计 的 学 习 者 设计 出 具有 个 性 化 的 学 习 计 划 〈 刘 淇 等 ，2018; Klašnja- 
Milićević, Ivanović, & Nanopoulos, 2015)。 由 此 可 见 ， 推 荐 系统 可 以 为 如 何 利 用 已 有 答题 者 
数据 选 题 提供 可 行 的 方案 。 

推荐 系统 还 可 以 与 IRT 相 结 合 ， 构 建 起 同样 注重 适应 性 的 智能 学 习 系 统 。 朱 天 宇 等 人 
(2017) 将 DINA 模型 与 矩阵 分 解 技术 整合 为 一 套 协 同 过 滤 的 试题 推荐 方法 ,得 以 同时 完成 
对 知识 掌握 程度 的 估计 和 题目 的 推荐 , 推荐 效果 优 于 使 用 单一 的 认 知 诊断 模型 或 数据 挖掘 算 
ik. Chen ÆA (2018) 将 推荐 系统 、 多 维 IRT 模型 和 强化 学 习 三 者 结合 ， 提 出 两 个 适应 性 
学 习 系统 的 原型 ， 使 用 该 系统 选择 学 习 材料 比 随机 选择 以 两 种 统计 指标 衡量 都 有 更 高 的 效 
率 , 并 指出 适应 性 学 习 的 核心 成 分 应 当 是 一 个 推荐 系统 , 依据 学 习 成 绩 推测 潜在 的 知识 掌握 


muy 


状态 ， 选 择 适 合 该 状态 的 学 习 材 料 。 可 以 发 现 ， 这 与 适应 性 测验 的 核心 流程 十 分 相似 ， 即 根 
据 作 答 结 果 选 择 最 合适 答题 者 真实 水 平 的 测验 题目 。 换 而 言 之 ，CAT 选 题 策略 本 质 上 也 可 
视 为 一 个 推荐 系统 。 然 而 ， 将 推荐 系统 与 CAT 选 题 结合 尚 无 先例 。 只 要 找到 合适 的 推荐 技 
术 ， 便 可 以 弥补 这 一 空白 。 

推荐 系统 中 协同 过 滤 推 荐 (Collaborative Filtering Recommender) 正 是 利用 大 量 的 已 有 
户 数据 , 对 当前 用 户 的 喜好 做 出 预测 和 推荐 , 与 利用 已 有 答题 者 数据 为 当前 答题 者 选 题 的 
目标 不 谋 而 合 。 协 同 过 滤 推 荐 假设 如 果 两 个 用 户 过 往 对 相同 的 项 目 感 兴趣 , 他 们 可 能 在 未 来 
仍 有 相似 的 偏好 ， 从 而 过 滤 出 最 贴近 用 户 喜 好 的 项 目 进 行 推荐 (Pirasteh, Jung, & Hwang, 
2014)。 协 同 过 小 推荐 简单 易 行 ， 不 需要 训练 模型 ， 其 底层 假设 在 大 量 场景 中 经 验证 稳定 有 


效 ， 是 推荐 系统 中 最 为 成 熟 和 流行 的 一 类 推荐 方法 (Koren, & Bell, 2015)。 使 用 协同 过 滤 推 


> 荐 完成 CAT 选 题 ， 可 以 避免 传统 选 题 策略 复杂 的 计算 公式 和 约束 流程 ， 从 已 有 答题 者 数据 
T. rp pos sme nad fr SS ae ES B SH» 此外, 在 协同 过 滤 推 荐 的 假设 之 上 可 以 根据 研究 
z 者 需要 加 入 其 它 规则 , 设计 出 可 灵活 扩展 的 选 题 策略 ， 既 可 以 侧重 选 题 精度 或 题目 曝光 率 控 
N f], 也 可 以 在 保证 一 定 精度 的 情况 下 兼顾 题库 使 用 和 测验 安全 。 例 如， 计算 已 有 答题 者 在 已 


作答 题目 上 的 相似 性 ,借助 茶 种 推荐 算法 过 滤 出 若干 道 适合 当前 答题 者 的 备 选 题目 ， 首先 满 
足 选 题 精度 的 要 求 ， 同 时 使 用 某 种 曝光 控制 法 ， 从 备 选 题目 池 中 选 出 最 终 要 作答 的 题目 ， 这 
样 便 兼 顾 了 题库 的 均匀 使 用 。 

基于 上 述 分 析 ， 本 研究 旨 在 将 推荐 系统 中 的 协同 过 滤 推 荐 用 于 CAT 选 题 ， 提 出 可 以 利 


E 已 有 管 题 者 数据 的 全 新 选 题 集 略 (以 下 简称 推荐 选 题 策略 )。 然 后 通过 蒙特 卡 洛 模拟 研究 ， 
[T 在 不 同 条 件 下 考察 推荐 选 题 策略 在 选 题 精度 和 对 题目 曝光 率 控制 方面 的 表现 。 


2 选 题 策 略 
2.1 生成 第 一 批 数据 的 传统 选 题 策略 

大 量 可 靠 的 用 户 历史 数据 是 精准 推荐 的 前 提 和 保障 ， 在 CAT 中 便 对 应 着 已 有 答题 者 数 
据 。 同 理 可 知 ， 如 果 过 往 答题 者 作答 的 题目 都 不 符合 其 真实 能 力 , 数据 库 中 积累 了 大 量 低 测 
量 精度 的 选 题 数据 ， 则 很 难 预 期 推荐 选 题 策略 可 以 从 中 找到 正确 的 选 题 规律 ,为 新 答题 者 先 
出 合适 的 题目 。 除了 选 题 精度 ，CAT 选 题 策略 还 应 注意 对 题目 曝光 率 的 控制 。 如 果 过 往 的 先 
题 策略 没有 充分 使 用 整个 题库 , 使 产生 的 答题 数据 中 题目 曝光 失衡 , 那么 推荐 系统 选 题 策略 
可 能 会 受到 影响 ， 按 已 有 不 均衡 的 比例 选择 题目 。 


现 阶段 我 们 首先 需要 使 用 研究 成 熟 且 特点 鲜明 的 传统 选 题 策略 , 生成 特点 不 同 的 第 一 批 


已 有 答题 者 数据 ， 以 考察 推荐 选 题 策略 的 选 题 特 点 。 第 一 种 选用 的 策略 是 Lord (1980) 提出 


的 基于 最 大 Fisher 信息 量 (Maximum Fisher Information, MFD 选 题 方法 ， 该 方法 通过 最 大 
化 测验 信息 量 的 方式 提高 选 题 精度 ， 是 最 为 流行 的 CAT 选 题 策略 ， 但 在 题目 曝光 率 控 制 方 
面 存在 缺陷 (Chang, 2015)。 第 二 种 策略 是 Chang, Qian fl Ying (2001) 提出 的 按 b 分 块 的 
a- 分 层 策略 (a-Stratified Strategy with b-Blocking, BAS )， 该 方法 在 测验 初期 提高 了 低 区 分 度 


题目 的 曝光 率 ， 同 时 减少 了 过 度 曝 光 的 题目 数 。 此 外 ， 分 层 方法 生成 的 已 有 答题 者 数据 会 继 


续 保留 分 层 的 特点 ， 使 推荐 选 题 策略 的 搜索 范围 可 以 缩小 在 特定 层 之 内 ， 可 提高 
2.2 基于 协同 过 滤 推 荐 的 新 选 题 策略 


选 题 速度 。 


协同 过 滤 推 荐 有 两 种 主要 的 实现 方式 : 基于 用 户 的 协同 过 滤 CUser-Based Collaborative 
Filtering， 例 如 Jia, Yang, Gao, & Chen, 2015) 会 寻找 与 当前 用 户 喜 好 最 相似 的 用 户 ， 然 后 在 
相似 用 户 的 过 往 数据 中 寻找 项 目 推荐 给 当前 用 户 ; 基于 项 目的 协同 过 滤 CItem-Based 


Collaborative Filtering， 例 如 Pirasteh, Jung, & Hwang, 2014) 则 试图 在 项 目 库 中 寻找 与 当前 用 


户 喜 好 项 目 最 相似 的 项 目 ,将 其 推荐 给 当前 用 户 。 考 虑 到 已 有 答题 者 数据 中 答题 者 的 数量 一 
般 会 多 于 题库 中 的 题目 数量 , 寻找 相似 答题 者 更 加 容易 ,而且 随 着 已 有 答题 者 数量 增 大 可 获 


得 更 多 的 参考 信息 , 更 利于 找到 最 合适 的 题目 , 因此 以 基于 用 户 的 协同 过 滤 推 荐 的 思想 设计 


选 题 策略 ， 将 寻找 相似 答题 者 作为 实现 推荐 选 题 的 第 一 步 。 每 当 答 题 者 完成 一 道 题 ， 就 在 已 


有 数据 中 寻找 作答 过 相同 题目 且 作 答 结 果 一 致 的 已 有 答题 者 , 将 其 选 定 为 本 道 题 的 相似 答题 


者 ， 以 他 们 为 参考 群体 进行 下 一 道 题目 的 推荐 。 与 推荐 系统 中 常用 的 余弦 相似 度 不 同 ， 由 于 
本 研究 暂 仅 关注 0-1 计 分 的 题目 ， 相 似 答题 者 的 判定 仅 有 对 或 错 两 种 结果 ， 也 就 是 以 简单 的 


二 分 方式 而 非 连续 尺度 计算 答题 者 的 相似 度 , 计算 复杂 度 低 ， 速度 更 快 。 每 次 选 H 


的 相似 答 


题 者 仅 针 对 当前 题目 而 言 ， 非 相似 答题 者 仍 有 可 能 在 下 一 道 题 目 答 完 后 被 判定 为 相似 答题 
者 ， 这 样 设计 可 以 扩大 一 次 完整 CAT 对 已 有 答题 者 数据 的 参考 范围 ， 使 推荐 选 题 策略 可 利 


用 的 信息 更 多 ， 选 题 更 加 精准 。 


找到 相似 答题 者 后 ， 可 改良 协同 过 滤 推 荐 的 底层 假设 使 其 适用 于 CAT 场景 。 


一 种 改良 


的 假设 是 : 当前 答题 者 可 以 作答 与 相似 答题 者 相同 的 下 一 道 题目 , 这 样 便 得 到 一 种 直接 的 推 
荐 选 题 策略 ， 不 借助 题目 参数 完成 选 题 。 另 一 种 假设 是 : 相似 答题 者 与 当前 答题 者 会 有 相似 
的 能 力 值 ， 然 后 借助 题目 参数 完成 选 题 ， 这 样 便 得 到 一 种 间接 的 推荐 选 题 策略 。 基 于 这 两 种 
假设 都 可 能 找到 多 道 可 推荐 的 题目 ， 考 虑 到 已 有 答题 者 数据 可 能 存在 题目 上 曝光 不 均匀 的 问 
题 ， 最 终 的 题目 将 以 随机 选择 的 方式 产生 , 随机 化 操作 是 一 类 第 用 的 可 以 控制 题目 曝光 率 的 


Jjik CGeorgiadou, Triantafillou, & Economides, 2007)。 至 此 形成 两 种 推荐 选 题 策略 : 直接 的 


基于 答题 者 推荐 (Direct Examinee-Based Recommender, DEBR) 将 所 有 相似 答题 者 回答 过 的 
下 一 道 题目 与 当前 答题 者 未 作答 题目 的 交集 作为 备 选 题目 , 从 中 随机 抽取 一 题 作 为 当前 答题 
者 的 下 一 道 题目 。 间 接 的 基于 答题 者 推荐 (Indirect Examinee-Based Recommender, IEBR) 将 
统计 所 有 相似 答题 者 答 完 本 题 后 的 当前 能 力 估计 值 的 范围 ,将 当前 答题 者 未 作答 题目 中 难度 
围 中 的 题目 作为 备 选 题目 ， 从 中 随机 抽取 一 题 作为 当前 答题 者 的 下 一 道 题 
H o 将 能 力 估 计 值 与 5b 参数 匹配 选 题 的 操作 借鉴 了 分 层 方法 , 使 用 匹配 b 参数 的 方法 相 比 于 
FMI 不 但 运算 复杂 度 低 ， 可 提高 选 题 速度 ,而 且 在 不 损失 估计 精度 的 情况 下 对 题目 曝光 率 控 
制 更 好 (Chang & Ying, 1999). 
在 较 少 情况 下 ， 上 述 两 种 推荐 选 题 策略 可 能 找 不 到 可 推荐 的 题目 ， 可 称 为 选 题 失 败 。 由 
之 于 协同 过 滤 推 荐 仅 在 选 题 过 程 中 使 用 ，CAT 中 其 它 流程 仍 照 常 进行 ， 包 括 使 用 参数 估计 的 
r 方法 得 到 该 答题 者 作答 每 一 道 题 后 的 当前 能 力 估计 值 。 当 找 不 到 可 推荐 题目 时 ,将 使 用 当前 
答题 者 的 能 力 估计 值 匹 配 b 参数 选择 下 一 道 题目 。 除 了 前 文 所 述 匹 配 b 参数 的 优点 , 如 果 生 
成 已 有 答题 者 数据 的 策略 不 注重 题库 的 均匀 使 用 ， 存 在 部 分 题目 从 未 在 过 往 数据 中 出 现 过 ， 
该 方法 还 可 重新 启用 该 题目 ， 提 高 对 低 曝 光 题 目的 使 用 。 综 上 可 见 ， 本 文 提出 的 两 种 推荐 选 
题 策略 都 使 用 了 简捷 快速 的 操作 ， 在 保证 选 题 精 度 的 情况 下 尽 可 能 注重 对 题目 曝光 率 的 控 


制 |。 
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£ 3 HA 
© 3.1 研究 设计 
研究 一 将 探究 两 个 常见 的 影响 CAT 选 题 和 推荐 系统 的 因素 。 首 先 ， 选 择 不 同 的 传统 选 


题 策略 ， 生 成 不 同 特点 的 已 有 答题 者 数据 , 是 否 会 影响 两 种 推荐 选 题 策略 的 表现 ? 模拟 条 件 
为 两 种 选 题 策 略 : 侧重 测量 精度 的 FMI 方法 和 侧重 控制 题目 曝光 的 BAS 方法 。 其 次 ， 采 用 
不 同 长 度 的 测验 , 生成 不 同 数量 的 已 有 答题 者 数据 , 是 否 会 影响 两 种 推荐 选 题 策略 的 表现 ? 
模拟 条 件 为 定 长 20 道 题目 和 40 道 题目 两 种 终止 条 件 .研究 一 共 2x2=4 种 模拟 条 件 的 组 合 ， 
每 种 条 件 组 合 下 重复 100 次 。 


研究 一 使 用 的 模拟 题库 为 400 道 0-1 计 分 的 题目 ,全 部 基于 三 参数 Logistic 模 型 (3PLM)， 


题目 参数 与 常见 策略 比较 的 设 定 一 致 (Barrada, Olea, & Abad, 2010; Cheng, Patton, & Shao, 
2015)， 区 分 度 参数 a 服从 正 态 分 布 NM1.2,0.25)， 难 度 参数 b 服从 标准 正 态 分 布 M0,1)， 猜 


测 参数 c 服从 正 态 分 布 N(0.25,0.02)，a 参数 与 b 参数 存在 中 等 程度 的 正 相 关 〈" 一 .45)。 答 题 
者 真实 能 力 参 数 0 服从 标准 正 态 分 布 M0,1)。 研 究 一 的 模拟 流程 为 : 首先 使 用 传统 选 题 策略 
对 第 一 批 的 1000 名 答题 者 进行 CAT 模拟 ， 生 成 第 一 批 已 有 答题 者 数据 ， 然 后 使 用 推荐 选 题 
策略 结合 第 一 批 已 有 答题 者 数据 ， 对 第 二 批 的 1000 名 能 力 分 布 相同 的 答题 者 进行 CAT 模 


拟 。 能 力 估计 方法 均 为 贝 叶 斯 后 验 期 望 法 。 使 用 BAS 策略 时 ， 题 库 分 为 4 层 ， 每 层 含 100 


道 题 ， 每 名 答题 者 在 每 层 作 答 


5 或 10 道 题 后 进入 下 一 层 。 在 两 种 测验 长 度 的 条 件 下 加 入 随 


机 选择 题目 作为 测量 精度 和 曝光 率 控制 的 比较 基线 。 


3.2 评价 指标 


本 研究 将 使 用 七 种 CAT 选 题 策略 比较 中 常见 的 评价 指标 (He, Diao, & Hauser, 2014), 


对 答题 者 真实 能 力 的 测量 精度 和 对 题目 曝光 率 控制 的 情况 进行 评价 。 同 时 提出 一 种 新 指标 ， 


于 衡量 推荐 选 题 策略 对 已 有 答题 者 数据 的 使 用 情况 .每 种 模拟 条 件 下 的 最 终结 果 为 100 次 
模拟 的 均值 。 不 同 评价 指标 的 定义 如 下 : 


(1) 均 方 误差 (Mean Squared Error, MSE): 


I~, oy 
MSE =~) (6-6) (1) 
i=1 


其 中 成 第 i 名 答题 者 的 最 终 能 力 估计 值 ，0; 为 第 i 名 答题 者 的 真实 能 力 值 ，N 为 一 批 答 题 者 


(2) 平均 绝对 误差 (Mean Absolute Error, MAE): 


N 
1) 
MAE = PAG - 6) (2) 


(3) 真实 能 力 值 与 最 终 能 力 佑 计 值 的 相关 re g: 


的 均值 和 方差 。 
(4) 题目 实际 曝光 率 与 型 


其 中 ;为 第 i 道 题目 的 曝光 率 ， 


p ZiO: = CG: = 81) (3) 
od S658 


其 中 6 和 sg 为 所 有 答题 者 真实 能 力 值 的 均值 和 标准 差 ，G. 和 5g 为 所 有 答题 者 最 终 能 力 估计 值 


想 分 布 的 卡 方 值 (X2 ): 


C ONE (4) 


i=1 


工 为 测验 长 度 ，K 为 题库 容量 (Chang & Ying, 1999). 


(5) JUS Ht COverlap Rate, OR)， 定 义 为 任意 两 个 答题 者 作答 题目 相同 的 比率 : 


(5) 


(7) HR) 


(8) 答题 者 调用 率 (Utilization Rate of Examinees), 4E ZH 


K wl 
——XSftT— 


OR = 一 
L K 


6 过 度 〈Overexposed)， 定 义 为 曝光 率 大 于 20% 的 题目 


荐 策略 每 次 选 题 时 调用 的 


HPS HMAT HR CKA (Chen, Ankenmann, & Spray, 2003). 


(6) 曝光 不 足 (Underexposed)， 定 义 为 没有 使 


in 


用 过 的 题目 数 。 


Sa 
o 


相似 答题 者 数量 


5 全 部 已 有 答题 者 的 比例 。 


具体 而 言 ， 八 种 指标 中 测量 精度 的 评价 指标 有 三 种 : 均 方 误差 、 平 均 绝对 误差 和 能 力 


计 相 关 ; 题库 使 


的 评价 指标 有 两 种 : 卡 方 值 和 曝光 不 足 的 题目 数 ; 测验 安全 的 评价 指标 有 


口 


两 种 : 测验 重合 率 和 曝光 过 度 的 题目 数 ; 答题 者 调用 率 则 用 于 评价 推荐 选 题 策略 可 以 利用 多 


少 已 有 答题 者 的 作答 信息 为 当前 答题 者 寻找 合适 的 题目 。 


3.3 研究 结果 


前 提 下 《高 于 随 必 


2: 
ak 


[m] 


IEBR， 且 大 幅 改 


氏 ， 在 测验 安全 和 题库 使 
HAY, DEBR 的 测量 精度 较 高 ， 与 FMI 相 比 仅 
了 题目 使 用 不 均匀 的 问题 。IEBR 对 题目 曝光 
和 测验 安全 的 四 种 指标 上 全 部 优 于 其 它 策略 , 在 保证 一 定 精度 的 


在 定 长 20 道 题目 的 CAT 中 , 两 种 传统 选 题 策略 生成 的 已 有 答题 者 数据 的 特点 与 预期 一 
致 : FMI 的 测量 精度 最 高 , 但 题库 使 用 不 均匀 ; BAS 的 测量 精度 稍 
方面 更 好 。 使 用 FM 生成 的 已 有 答题 者 数 ， 
有 小 幅 下 降 ， 优 于 BAS 和 
率 的 控制 最 佳 , 在 题库 使 


1 选择 题目 的 测量 精 


EE) 最 为 理想 地 均匀 使 用 整个 题库 。 


于 答题 者 调用 率 


H 


EEA 


向， 故 计算 完 成 一 次 测验 所 有 步骤 的 平均 值 ， 此 时 DEBR 的 答题 者 调 | 


远 高 于 IEBR。 使 用 BAS 生成 的 已 有 答题 者 数据 时 ， 两 种 推荐 选 题 策略 与 
KEANE, 且 都 可 以 在 已 有 基础 上 进一步 优化 测验 安全 和 题库 使 用 ,答题 者 调 


在 定 长 40 道 题目 的 CAT 中 ， 传 统 选 题 策略 和 推荐 选 题 策略 表现 


BAS 相 比 精度 稳 


j 率 也 基本 相同 。 


的 特点 与 20 道 题目 


时 基本 一 致 。 使 用 FMI 生成 的 数据 时 ，DEBR 损失 较 小 的 精度 ， 大 幅 减 少 了 上 曝光 不 足 的 题 


目 数 ，IEBR 的 i 


件 下 的 最 优 水 平 。 


用 


i 


高 于 DEBR。 在 更 长 的 测验 


的 答题 者 调用 率 整 体 升 


NECEM 
=] 


[AJ » 


呈现 出 的 相对 高 低 趋 势 不 变 。 


= 


He 1 模拟 题库 下 各 选 题 策略 的 表现 


精度 与 BAS 持平 , 在 测验 安全 和 题库 使 用 的 四 种 指标 上 再 次 达到 了 该 条 
使 用 BAS 生成 的 数据 时 ， 两 种 推荐 选 题 策略 几乎 没有 损失 精度 ， 题 库 使 
的 均匀 程度 仍 有 提升 ，IEBR 的 提升 幅度 稍 


，DEBR 和 IEBR 


均 方 误差 ”平均 绝对 enki i We BATE Bie — 答题 者 调 
误差 相关 率 率 


定 长 20 道 题 


随机 选 题 0.323 0.449 0.829 2.595 5.56% 0 0 
FMI. 0.090 0.234 0.954 127.852 40.80% 315 41 
DEBR(FMI) 0.141 0.291 0.930 66.341 21.83% 22 29 14.12% 
IEBR(FMI) 0.242 0.383 0.872 8.712 7.09% 1 2 2.5396 
BAS 0.224 0.370 0.882 14.164 9.0096 46 6 
DEBR(BAS) 0.217 0.365 0.884 11.246 8.2596 44 4 4.25% 
IEBR(BAS) 0.222 0.369 0.882 11.187 8.15% 42 4 4.66% 
定 长 40 道 题 
随机 选 题 0.198 0.354 0.890 4.572 11.05% 0 0 
FMI 0.052 0.178 0.974 118.335 45.72% 240 80 
DEBR(FMI) 0.089 0.228 0.956 95.045 34.3896 37 78 19.7794 
IEBR(FMI) 0.126 0.277 0.937 7.571 11.80% 0 15 5.19% 
BAS 0.126 0.278 0.932 18.962 15.03% 14 36 
TT DEBR(BAS) 0.125 0.276 0.933 15.930 14.27% 13 27 6.98% 
a IEBR(BAS) 0.128 0.280 0.931 12.012 13.25% 14 17 7.22% 


注 : 括号 内 为 生成 已 有 答题 者 数据 的 选 题 策 略 ， 下 同 。 


由 研究 一 的 结果 可 见 , 由 不 同 传统 策略 生成 的 不 同 特 点 的 已 有 答题 者 数据 会 直接 影响 推 
荐 选 题 策略 表现 出 的 趋势 。 如 果 使 用 FMI 生成 第 一 批 已 有 答题 者 数据 ， 推 荐 选 题 策略 的 表 
现 为 大 幅 启 用 未 曝光 的 题目 , 改善 题目 曝光 率 控制 , 且 产生 常见 的 权衡 损失 一 定 精 度 , DEBR 
权衡 的 幅度 小 于 IEBR; 如 果 使 用 BAS 生成 第 一 批 已 有 答题 者 数据 ,已 有 数据 中 题库 使 用 较 
= 为 均匀 ， 两 种 推荐 选 题 策略 都 将 保持 精度 并 进一步 改善 题目 上 曝光 率 控制 , 包括 答题 者 调用 率 
f= 在 内 的 各 指标 十 分 接近 。 测验 长 度 不 影响 新 策略 在 特定 数据 下 表现 出 的 趋势 , 但 会 影响 在 各 
指标 上 的 绝对 大 小 ， 包 括 更 高 的 精度 和 答题 者 调用 率 ， 更 少 的 曝光 不 足 等 。 

在 相同 测验 长 度 下 , 同一 推荐 选 题 策略 的 表现 可 以 有 较 大 差异 , 这 种 不 一 致 性 源 自 测验 
长 度 有 两 种 作用 路 径 , 既 可 能 通过 影响 传统 策略 的 表现 改变 已 有 答题 者 数据 的 质量 (在 各 指 
标 上 的 绝对 大 小 )， 也 可 能 是 通过 生成 数据 的 数量 最 终 影响 到 推荐 选 题 策略 的 表现 ， 于 是 需 
要 控制 测验 长 度 , 用 男 一 种 增加 数据 量 的 方式 分 离 上 述 影 响 。 此 外 ,在 研究 一 中 己 有 答题 者 
数据 全 部 由 传统 选 题 策略 生成 , 而 在 现实 中 第 二 批 答题 者 作答 结束 后 ,推荐 选 题 策 略 便 可 以 
使 用 自身 生成 的 数据 ， 此 时 选 题 的 结果 是 否 稳定 值得 探究 。 研究 一 仅 使 用 了 模拟 题库 ,还 需 
要 在 真实 题库 下 进一步 考察 推荐 选 题 集 略 的 表现 。 上 述 问题 将 在 研究 二 中 进一步 探讨 。 


Psi 


4 研究 二 


4.1 研究 设计 
究 二 将 在 更 接近 现实 的 情境 下 考察 推荐 选 题 策略 的 表现 。 首 先 ， 换 用 真实 题库 ， 当 题 
E 质 量 不 如 模拟 题库 理想 时 ,推荐 选 题 策略 的 表现 是 否 会 受到 影响 ?其 次 , 现实 中 积累 数据 
的 方式 除 增长 测验 之 外 , 还 可 以 将 使 用 同一 题库 的 两 批 不 同 的 答题 者 数据 合并 。 那么 使 用 合 
并 后 的 数据 , 推荐 选 题 策略 是 否 仍 有 良好 的 测量 精度 和 优秀 的 题目 曝光 率 控制 ? 此 时 答题 者 
数量 与 题库 中 题目 数 之 比 增加 ， 相 当 于 推荐 系统 中 用 户 一 项 目 评分 矩阵 的 形状 发 生 显著 改 
变 , 而 研究 一 中 增长 测验 是 增加 每 名 答题 者 回答 的 题目 数 , 相当 于 仅 改变 了 用 户 一 项 目 评分 
和 矩阵 的 数据 稀疏 程度 ， 而 不 改变 矩阵 的 形状 。 为 了 控制 这 一 变量 ， 在 研究 二 中 仪 采 用 20 道 
题 的 终止 规则 。 
研究 二 使 用 TIMSS 2015 八 年 级 科学 测验 的 276 道 题目 ， 其 中 125 道 题 基于 2PLM， 其 
之 R 151 道 题 基 于 3PLM， 该 题库 中 a 参数 的 分 布 大 多 集中 于 1 附近 ， 高 区 分 度 的 题目 所 占 比 
r HB, b 参数 的 分 布 范 围 小 于 模拟 题库 ， 尤 其 5b 参数 小 于 0 的 低 难度 题目 不 多 ，3PLM F 
题目 的 c 参数 整体 较 大 ， 可 见 该 题库 质量 低 于 研究 一 使 用 的 模拟 题库 。 研 究 二 的 模拟 流程 
为 : 首先 使 用 传统 选 题 策略 对 第 一 批 的 1000 名 答题 者 进行 CAT 模拟 ， 生 成 第 一 批 己 有 答题 
者 数据 ; 然后 使 用 推荐 选 题 策略 结合 第 一 批 已 有 答题 者 数据 ， 对 第 二 批 的 1000 名 能 力 分 布 
相同 的 答题 者 进行 CAT 模拟 (至 此 与 研究 一 流程 相同 )， 最 后 将 两 批 共 2000 名 答题 者 的 数 
据 合 并 作为 已 有 答题 者 数据 ， 再 次 使 用 推荐 选 题 策略 对 第 三 批 的 1000 名 能 力 分 布 相同 的 答 
题 者 进行 CAT 模拟 。 使 用 BAS 策略 时 ， 题 库 分 为 4 层 ， 每 层 含 69 道 题 ， 每 名 答题 者 在 每 
层 作 答 5 道 题 后 进入 下 一 层 。 研究 二 中 生成 第 一 批 数 据 的 传统 选 题 策略 , 答题 者 的 真实 能 力 
FE 分 布 ， 能 力 估计 方法 ， 重 复 次 数 和 评价 指标 都 与 研究 一 相同 。 
4.2 研究 结果 
与 研究 一 中 20 道 题目 下 的 结果 相 比 ， 更 换 题库 后 FMI 和 BAS 生成 数据 的 特点 不 变 但 
数据 质量 变 差 。 使 用 FMI 生成 的 第 一 批 已 有 答题 者 数据 时 ， 两 种 推荐 选 题 策略 表现 出 与 研 
究 一 相同 的 特点 ， 在 大 幅 改 善 题 目 曝光 失衡 的 同时 ，DEBR 更 注重 保持 精度 ，IEBR 使 用 题 
库 更 为 均匀 ,两 种 推荐 策略 调用 的 答题 者 数量 比 使 用 模拟 试题 库 时 都 提升 近 一 倍 , DEBR 仍 
远 高 于 IEBR. 将 FMI 与 推荐 选 题 策略 生成 的 两 批 已 有 答题 者 数据 合并 ， 对 第 三 批 答题 者 选 
题 时 ， 两 种 推荐 策略 对 题目 曝光 率 控 制 的 改善 愈加 明显 ，DEBR 的 精度 始终 高 于 EBR 和 
BAS, IEBR 对 题目 曝光 率 的 控制 达到 最 理想 的 水 平 ，DEBR 和 IRBR 找到 的 相似 答题 者 数 
量 都 与 合并 前 基本 不 变 ， 由 于 合并 数据 使 已 有 答题 者 数量 翻 倍 ,答题 者 调用 率 相应 减 半 ， 与 
究 一 中 20 道 题目 下 的 结果 相近 。 
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精度 指标 上 稍 有 提升 ，IEBR 进一步 


] BAS 生成 的 多 


一 批 已 有 答题 者 数 
降低 了 卡 方 值 和 测验 如 


中 时 ， 两 种 推荐 策略 的 选 题 结 果 相 近 ，DEBR 在 


EE 车 率 ， 调 用 的 答题 者 数量 基本 一 


MX, IEF FMI 下 的 水 平 。 两 批 数据 合并 后 ，DEBR 也 改善 了 测验 安全 和 题库 使 用 ，IEBR 的 


则 相应 缩小 一 半 。 


表 2 模拟 真实 情境 下 各 选 题 策略 的 表现 


改善 更 加 明显 , 测量 精度 的 波动 始终 处 于 合理 范围 。 值得 注意 的 是 , 合并 后 DEBR 找到 的 相 


似 答题 者 数量 翻 倍 ， 使 得 调用 率 基本 不 变 ，IEBR 与 合 j 


前 调用 的 答题 者 数量 相同 ， 调 用 率 


选 题 策略 WARE ”平均 绝对 ”能 力 估计 卡 方 值 NBS 。 曝光 不 足 Bove ”答题 者 调 
误差 相关 率 用 率 

随机 选 题 0.320 0.440 0.830 2.551 8.02% 0 0 
FMI 0.152 0.307 0.922 150.511 58.48% 214 33 
DEBR(FMI) 0.190 0.341 0.901 101.793 40.81% 53 38 25.04% 
DEBR(DEBR+FMI) 0.233 0.380 0.875 47.426 21.10% 29 35 12.69% 
IEBR(FMI) 0.265 0.408 0.855 43.395 19.63% 0 24 5.24% 
IEBR(IEBR+FMI) 0.274 0.414 0.852 11.830 8.19% 0 0 2.86% 
BAS 0.259 0.404 0.861 42.965 19.48% 20 27 
DEBR(BAS) 0.253 0.395 0.869 43.449 19.65% 12 33 9.75% 
DEBR(DEBR+BAS) 0.262 0.403 0.865 39.684 18.29% 13 26 9.51% 
IEBR(BAS) 0.266 0.408 0.858 37.491 17.49% 17 24 9.96% 
IEBR(IEBR+BAS) 0.267 0.407 0.855 25.305 13.07% 8 18 5.13% 
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调用 率 的 变化 具有 一 致 性 。FMI 生成 首 批 数 和 


的 理想 曝光 率 riaeul = Z = 0.072), DEBR 发 生 精 度 曝 光 率 权衡 的 幅度 较 小 〈 图 lb)， 第 一 轮 


选 题 结 果 更 接近 FMI (图 
SAVE Big; if IEBR Xd 


大 幅 减 少 ， 答 题 者 调 


题 时 相似 答题 者 数量 


策略 都 在 原 有 基础 上 改善 曝光 控 
化 曝光 率 的 最 终结 果 相 互 匹配 。 同 开 
轮 选 题 两 种 推荐 策略 的 权衡 趋势 和 答题 者 调用 率 都 十 分 接近 图 


la), BA DECALS 
8 更 多 不 常用 的 题目 ， 改 


WR CE 


找到 相似 答题 者 ， 因 而 答题 者 调用 


曝光 的 幅度 较 大 《 
] 率 的 值 较 低 。 合 并 数 


2b 和 2d)， 由 于 BAS 有 


以 更 加 明显 地 发 现 这 一 变化 
1， 红 色 横 线 表 示 完 全 均匀 


图 14)， 也 使 得 选 
进行 第 二 轮 选 题 时 ， 两 种 
Bl] (图 lc 和 1e), 调用 率 以 同等 幅度 降低 , 数值 的 大 小 与 优 
可 以 解释 BAS 生成 首 批 数据 时 的 情况 〈 见 图 2)， 第 一 


定 的 曝光 控制 能 力 〈 图 2a)，DEBR 和 IEBR 的 调用 率 都 位 于 FMI 条 件 下 两 种 和 


间 水 平 。 第 二 轮 选 题 DEBR 基本 触及 了 其 优化 曝光 的 上 限 图 


E 荐 策略 的 中 


2c)， 调 用 率 变化 其 微 ，IEBR 


仍 在 明显 改善 


题库 使 用 的 均匀 程度 (图 2e)， 调 月 


率 再 度 降低 。 由 此 可 见 ， 答 题 者 调用 率 可 


以 视 作 推荐 策略 选 题 特点 和 权衡 趋势 的 侧面 衡量 指标 。 
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2 BAS 生成 首 批 数 据 时 两 轮 推 荐 选 题 的 题目 曝光 率 变化 


LE 想 的 真实 题库 不 影响 两 种 推荐 选 题 策略 的 选 


根据 和 


究 二 的 结果 可 以 发 现 , 换 用 质 


题 特点 和 良好 的 性 质 。 合 并 传统 策略 和 推荐 选 题 策略 自身 生成 的 两 批 数据 后 , 仅 增加 数据 量 
而 不 改变 数据 的 特点 ，DEBR 和 IEBR 的 优势 表现 得 更 加 明显 ， 特 点 更 加 鲜明 。 
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5 讨论 


本 研究 提出 了 全 新 的 基于 协同 过 滤 推 荐 的 CAT 选 题 策略 ， 通 过 两 个 模拟 研究 发 现 : 利 
已 有 答题 者 数据 的 推荐 选 题 策略 可 以 保证 良好 的 测验 安全 和 均匀 的 题库 使 用 , 并 有 不 低 于 
分 层 方法 的 选 题 精度 。 在 具体 的 CAT 场景 下 ， 如 果 该 数据 中 题库 使 用 失衡 ， 推 荐 选 题 策略 
会 首先 启用 整个 题库 , 达到 该 条 件 下 选 题 精度 和 曝光 率 控制 较 好 的 平衡 点 ; 当 已 有 答题 者 数 
据 不 存在 极端 的 题库 曝光 不 均 时 , 推荐 选 题 策略 会 进一步 优化 曝光 率 控制 ,同时 不 再 以 损失 
精度 为 代价 。 具 体 到 两 种 新 提出 的 策略 ， 直 接 基于 答题 者 推荐 (DEBR) 策略 更 加 注重 保持 
精度 ， 间 接 基 于 答题 者 推荐 (IEBR) 策略 改善 曝光 率 控制 能 力 的 能 力 更 强 。 两 个 模拟 研究 的 
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S 结果 都 表明 : 由 不 同 传统 选 题 策略 决定 的 已 有 答题 者 数据 的 特点 最 为 主要 地 影响 推荐 选 题 策 
e i 

o 略 表现 出 的 选 题 趋势 ， 题 库 质 量 、 测 验 长 度 和 答题 者 数量 不 影响 该 趋势 ， 而 是 通过 影响 已 有 
N 


A 答题 者 数据 的 质量 ， 最 终 一 起 决定 了 推荐 选 题 策略 在 各 指标 上 的 具体 大 小 。 

本 研究 有 两 个 最 重要 的 创新 之 处 。 第 一 个 创新 在 于 发 现 了 已 有 答题 者 数据 作为 一 种 先 验 
言 息 对 选 题 的 重要 价值 。 本 研究 将 当前 答题 者 的 数据 与 大 量 过 往 答 题 者 的 数据 之 间 搭 起 桥 
梁 ， 再 次 扩展 了 CAT 选 题 可 参考 信息 的 来 源 和 数量 。 模 拟 研究 的 结果 表明 在 已 有 的 选 题 数 
据 数量 充足 且 准 确 可 靠 的 情况 下 ， 借 鉴 他 人 的 选 题 经 验 可 以 选 出 符合 当前 答题 者 能 力 的 题 
目 ， 同 时 改善 过 往 选 题 数 据 中 使 用 题目 不 均匀 的 问题 。 相 比 于 当前 答题 者 可 以 产生 的 数据 ， 
已 有 答题 者 数据 无 疑 更 加 丰富 , 可 挖掘 的 潜力 巨大 。 本 研究 的 另 一 个 创新 在 于 发 现 了 推荐 系 
统 和 CAT 选 题 的 共通 性 ， 借 鉴 协同 过 滤 推 荐 的 技术 建立 了 一 套 选 题 规则 ， 并 初步 证 明 协 同 
过 滤 推 荐 的 底层 假设 同样 适用 于 CAT 的 选 题 场景 。 基 于 该 假设 可 以 有 机 结合 推荐 系统 技术 
和 传统 选 题 方法 , 设计 出 灵活 的 推荐 选 题 集 略 。 例如 DEBR 和 IEBR 在 均匀 使 用 题库 方面 有 
优秀 的 表现 , 得 益 于 在 基于 用 户 推 荐 中 加 入 了 多 种 控制 题目 曝光 率 的 选 题 操 作 , 可 见 推荐 选 
题 策略 是 一 个 可 不 断 改进 的 框架 , 未 来 还 有 使 适应 性 测验 更 加 精准 和 智能 的 提升 空间 。 随 着 
究 不 断 深入 , 尤其 是 推荐 系统 的 更 多 引入 ,可 能 会 在 生成 首 批 数据 或 预防 选 题 失 败 等 方面 
逐渐 摆脱 对 传统 选 题 策略 的 依赖 ， 使 推荐 选 题 策略 更 少 受到 如 IRT 的 前 提 假 设 不 满足 所 产 
生 的 影响 。 本 研究 的 探索 也 启发 更 多 心理 和 教育 领域 的 研究 者 , 可 以 尝试 将 以 推荐 系统 为 代 
表 的 大 数据 技术 和 机 器 学 习 算 法 作为 传统 方法 的 结合 和 蔡 换 的 选项 。 
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在 两 个 模拟 研究 中 , 推荐 选 题 策略 对 各 能 力 层 次 答题 者 的 估计 精度 仍 依赖 于 已 有 答题 者 
数据 的 质量 , 与 生成 该 数据 的 选 题 策略 表现 基本 一 致 ,对 于 能 力 居 中 的 答题 者 估计 精度 较 高 ， 
对 于 位 于 分 布 两 端的 被 试 估 计 精 度 较 低 ， 但 不 会 低 于 已 有 数据 中 的 精度 水 平 。 另 一 方面 ， 推 
荐 选 题 策略 实际 发 生 选 题 失败 的 概率 都 非常 小 。 以 40 道 题目 条 件 为 例 , 对 一 批 1000 名 答题 
共 需 选 出 40000 道 题目 ，DEBR 发 生 选 题 失 败 的 概率 平均 为 1.15% (462 道 )，IEBR 发 生 
选 题 失败 率 平均 为 2.03% (812 38, 平均 一 名 答题 者 发 生 选 题 失败 的 次 数 不 到 1 次 , 这 使 得 

采用 何 种 方法 解决 选 题 失 败 对 测量 精度 和 题目 曝光 率 的 影响 非常 微弱 。 在 选 题 失败 的 情况 

中 ， 出 现 找 不 到 相似 答题 者 的 概率 更 低 ， 且 主要 发 生 在 使 用 FMI 生成 的 上 曝光 不 均匀 的 第 一 

批 答题 者 数据 时 ,在 其 它 各 条 件 下 发 生 的 概率 则 小 于 万 分 之 一 。 由 此 可 见 , 仪 需要 一 种 曝光 

率 控制 较 好 的 传统 选 题 策略 , 模拟 生成 几 干 名 答题 者 的 已 有 答题 数据 , 同时 作为 选 题 失 败 的 
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= 继续 作为 已 有 答题 者 数据 供 推荐 选 题 策略 使 用 ,通过 这 种 数据 的 迭代 和 积累 ,不断 增加 可 参 
= 考 信息 的 多 样 性 ， 同 时 降低 选 题 失 败 的 概率 。 
N 本 研究 作为 一 种 新 方法 的 尝试 和 探索 ， 尚 有 许多 值得 进一步 探讨 和 研究 的 问题 。 第 一， 


本 研究 对 最 可 能 影响 推荐 系统 表现 的 已 有 数据 质量 、 特点 和 数据 量 进行 了 探讨 , 但 没有 对 自 
适应 测试 中 可 能 影响 选 题 策略 表现 的 答题 者 能 力 分 布 特点 和 题库 特征 进行 深入 分 析 。 未 来 可 
继续 考察 已 有 答题 者 和 新 答题 者 能 力 分 布 存 在 差异 , 题库 题 量 和 题目 参数 分 布 特点 , 管 题 者 
作答 的 模式 和 准确 性 等 因素 对 推荐 选 题 策略 的 精度 和 选 题 失 败 率 的 影响 。 第 二 , 随 着 已 有 管 
L 题 者 数据 量 增 大 , 两 种 推荐 选 题 策略 的 测量 精度 反而 降低 , 这 可 能 是 由 于 本 研究 设计 推荐 选 
FI 题 策略 时 十 分 注重 解决 题目 上 曝光 不 均匀 的 问题 ， 除 相似 答题 者 的 设计 之 外 , 没有 进一步 提高 
选 题 精度 的 具体 操作 , 限制 了 新 策略 在 面 对 更 大 的 数据 时 保持 高 精度 ,未 来 可 针对 此 局 限 进 
一 步 改进 选 题 策略 。 第 三 ， 本 研究 提出 的 推荐 选 题 策略 仅 适 用 于 单 维和 0-1 计 分 的 CAT, I 
实 中 还 有 大 量 多 级 评分 的 题目 ， 且 基于 使 用 的 IRT 模型 不 同 ， 还 有 更 复杂 的 多 维 CAT 和 认 


知 诊断 CAT， 如 何在 这 些 复杂 模型 中 快速 且 高 效 地 选 题 是 如 今 研究 的 热点 和 难点 (Akbay, & 


Kaplan, 2017; Kaplan, de la Torre, & Barrada, 2015; Zhang, & Chang, 2016; 毛 郁 珍 , 辛 涛 , 2015), 
因此 ， 针 对 多 级 评分 题目 和 基于 复杂 模型 的 CAT 改进 推荐 选 题 策略 也 是 一 个 重要 的 研究 方 
向 。 


结合 本 研究 的 结果 和 针对 上 述 值得 探讨 的 问题 提出 几 种 改进 推荐 选 题 策略 的 思路 : 第 一 ， 
继续 结合 传统 选 题 策略 。 以 EBR 为 例 ， 找 到 相似 答题 者 后 可 将 匹配 b 参数 蔡 换 为 精度 更 高 
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或 是 借用 推荐 系统 中 多 种 相似 度 计 算 公 式 , 找到 更 精准 的 相似 答题 者 , 提高 选 题 精度 。 第 三 ， 

协同 过 滤 推 荐 还 有 基于 项 目 推荐 的 方式 ， 即 计算 适用 于 CAT 场景 的 题目 相似 度 ， 选 出 与 作 
答 过 题目 最 相似 的 未 作答 题目 , 这 种 基于 题目 推荐 的 选 题 策略 可 以 更 好 地 避免 选 题 失败 ,也 
更 易于 选 出 新 加 入 题库 尚未 使 用 过 的 题目 。 第 四 ， 当 新 用 户 加 入 ， 因 数据 稀缺 对 用 户 了 解 不 
足 时 ， 协 同 过 滤 推 荐 往往 会 难于 做 出 推荐 ， 这 一 问题 被 称 为 冷 启动 (cold start)， 随 着 技术 发 
展 产生 了 一 系列 解决 冷 启动 问题 的 方法 (Lika, Kolomvatsos, & Hadjiefthymiades, 2014)， 可 
借鉴 这 些 方法 解决 测验 前 期 测量 不 准确 和 选 题 失 败 的 问题 。 第 五 ， 除了 协同 过 滤 推 荐 ,推荐 
系统 中 还 有 许多 新 技术 可 用 于 改善 CAT 选 题 策略 。 例 如 基于 模型 的 推荐 ， 使 用 机 器 学 习 的 
算法 对 用 户 评分 数据 构建 复杂 模型 完成 推荐 , 可 用 的 算法 十 分 多 样 (Ricci, Rokach, & Shapira, 
2015)， 可 以 提高 协同 过 滤 推 荐 的 预测 力 和 灵活 性 ， 也 为 推荐 系统 迁移 至 CAT 场景 提供 了 更 
多 选择 。 近 几 年 ， 深 度 学 习 发 展 正 热 ， 与 推荐 系统 相 结合 催生 出 深度 推荐 算法 ， 得 以 解决 日 
益 增 长 的 海量 数据 和 愈加 复杂 的 推荐 问题 (Covington, Adams, & Sargin, 2016; H. Wang, N. 


Wang, & Yeung, 2015)， 这 对 于 规模 庞大 且 题 目 类 型 复杂 的 CAT 选 题 同样 有 借鉴 意义 。 


6 结论 


本 研究 发 现 : CIO 推荐 系统 中 的 协同 过 滤 推 荐 可 移植 于 CAT 选 题 ， 设 计 出 的 推荐 选 题 
策略 在 保证 一 定 测量 精度 的 同时 ,对 题目 曝光 率 的 控制 更 好 ; (2) 已 有 答题 者 数据 是 一 类 对 
选 题 有 价值 的 先 验 信息 ， 该 数据 的 特点 和 质量 是 影响 推荐 选 题 策略 表现 的 主要 因素 。 
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Abstract 

Better CAT item selection strategies may be designed by making better use of information from 
previous examinees' responses. The past examinees' data serve as a valuable reference for selecting 
items more accurately and evenly for new examinees. However, most of the existing strategies 
proposed under the theoretical framework of IRT only use information from the current examinee 
and fail to take full advantage of past examinees’ data. A collaborative filtering recommender 
approach from the recommender system literature is able to find items that best match one's 
preference by utilizing information from others, which shares the similar goal as the item selection 
strategy of CAT. Therefore, the present study adapted the underlying assumptions of collaborative 
filtering recommender and proposed new item selection strategies which take advantage of past 
examinees' data, and then investigated the potential factors that might affect the performance of 
new strategies. 

In light of user-based collaborative filtering, we defined similar examinees as a group of 
examinees who uniformly answered the same items, and proposed two strategies, Direct Examinee- 
Based Recommender (DEBR) and Indirect Examinee-Based Recommender (IEBR). Two 
simulation studies were conducted to examine the measurement accuracy and item exposure control 
of new strategies under different conditions. In study 1, a simulated item bank was considered. The 
recommender-based strategies used two different types of past examinees’ data generated by FMI 
and BAS, respectively, to select items under two fixed-length CATs. In study 2, a real item bank 
was used to test new strategies under a more realistic setting. The effect of combining two batches 
of past examinees’ data from different recommender-based strategies was also investigated. 


In both studies, when using past examinees’ data with high accuracy but poor item exposure 


control (generated by FMI), the recommender-based strategies greatly remedied unbalanced item 
utilization with an acceptable loss of accuracy. When using past examinees’ data with better tradeoff 
of measurement precision and test security (generated by BAS), the recommender-based strategies 
kept the accuracy at the same level and further improved item exposure control. More specifically, 
DEBR focused on maintaining the accuracy and had lower measurement error than IEBR; IEBR 
was good at improving the control of item exposure and made better use of the whole item bank 
than all the other strategies. These features of two recommender-based strategies were stable and 
consistent under different item banks and different length of CATs. The extent to which DEBR and 
IEBR demonstrated their features was influenced by the quality of item bank, test length, number 
of past examinees and strategy used to generate data. 

In general, this research successfully combined the recommender systems with CAT item 
selection methods to establish a new flexible framework, which is an unprecedented innovation 
upon the traditional item selection strategies. This research also provided empirical evidence for the 
value of past examinees' data and the recommender system approach as a feasible alternative option 
for selecting items in CAT. Finally, suggestions for future studies were provided regarding 
investigating the proposed new strategies in various situations and upgrading recommender-based 
strategies for more CAT conditions, including finding diverse measures of similarities between 
examinees or items and employing more complex algorithms of recommender system to meet the 
demands of large-scale tests. 

Key words selection strategy; past examinees' data; recommender system; collaborative filtering 


recommender; simulation study 


